In contrast to the control-theoretic methods, the lack of stability guarantee remains a significant problem for model-free reinforcement learning (RL) methods. Jointly learning a policy and a Lyapunov function has recently become a promising approach to ensuring the whole system with a stability guarantee. However, the classical Lyapunov constraints researchers introduced cannot stabilize the system during the sampling-based optimization. Therefore, we propose the Adaptive Stability Certification (ASC), making the system reach sampling-based stability. Because the ASC condition can search for the optimal policy heuristically, we design the Adaptive Lyapunov-based Actor-Critic (ALAC) algorithm based on the ASC condition. Meanwhile, our algorithm avoids the optimization problem that a variety of constraints are coupled into the objective in current approaches. When evaluated on ten robotic tasks, our method achieves lower accumulated cost and fewer stability constraint violations than previous studies.
translated by 谷歌翻译
A storyboard is a roadmap for video creation which consists of shot-by-shot images to visualize key plots in a text synopsis. Creating video storyboards however remains challenging which not only requires association between high-level texts and images, but also demands for long-term reasoning to make transitions smooth across shots. In this paper, we propose a new task called Text synopsis to Video Storyboard (TeViS) which aims to retrieve an ordered sequence of images to visualize the text synopsis. We construct a MovieNet-TeViS benchmark based on the public MovieNet dataset. It contains 10K text synopses each paired with keyframes that are manually selected from corresponding movies by considering both relevance and cinematic coherence. We also present an encoder-decoder baseline for the task. The model uses a pretrained vision-and-language model to improve high-level text-image matching. To improve coherence in long-term shots, we further propose to pre-train the decoder on large-scale movie frames without text. Experimental results demonstrate that our proposed model significantly outperforms other models to create text-relevant and coherent storyboards. Nevertheless, there is still a large gap compared to human performance suggesting room for promising future work.
translated by 谷歌翻译
Many real-world applications of language models (LMs), such as code autocomplete and writing assistance, involve human-LM interaction, but the main LM benchmarks are non-interactive, where a system produces output without human intervention. To evaluate human-LM interaction, we develop a framework, Human-AI Language-based Interaction Evaluation (H-LINE), that expands non-interactive evaluation along three dimensions, capturing (i) the interactive process, not only the final output; (ii) the first-person subjective experience, not just a third-party assessment; and (iii) notions of preference beyond quality. We then design five tasks ranging from goal-oriented to open-ended to capture different forms of interaction. On four state-of-the-art LMs (three variants of OpenAI's GPT-3 and AI21's J1-Jumbo), we find that non-interactive performance does not always result in better human-LM interaction and that first-person and third-party metrics can diverge, suggesting the importance of examining the nuances of human-LM interaction.
translated by 谷歌翻译
强化学习方法作为一种有前途的技术在自由浮动太空机器人的运动计划中取得了卓越的成果。但是,由于计划维度的增加和系统动态耦合的加剧,双臂自由浮动太空机器人的运动计划仍然是一个开放的挑战。特别是,由于缺乏最终效果的姿势约束,当前的研究无法处理捕获非合作对象的任务。为了解决该问题,我们提出了一种新型算法,即有效的算法,以促进基于RL的方法有效提高计划准确性。我们的核心贡献是通过先验知识指导构建一项混合政策,并引入无限规范以构建更合理的奖励功能。此外,我们的方法成功地捕获了具有不同旋转速度的旋转对象。
translated by 谷歌翻译
尖峰神经网络(SNN)是第三代人工神经网络,可以在神经形态硬件上实施节能。但是,尖峰的离散传播给坚固且高性能的学习机制带来了重大挑战。大多数现有的作品仅着眼于神经元之间的学习,但忽略了突触之间的影响,从而导致稳健性和准确性丧失。为了解决这个问题,我们通过对突触(APB)(APB)之间的关联可塑性(APB)进行建模,从而提出了一种强大而有效的学习机制。使用提出的APB方法,当其他神经元同时刺激时,同一神经元的突触通过共享因素相互作用。此外,我们提出了一种时空种植和翻转(STCF)方法,以提高网络的概括能力。广泛的实验表明,我们的方法在静态CIFAR-10数据集和神经形态MNIST-DV的最新性能上实现了卓越的性能,通过轻量级卷积网络,CIFAR10-DVS数据集。据我们所知,这是第一次探索突触之间的学习方法和神经形态数据的扩展方法。
translated by 谷歌翻译
事件摄像机在挑战场景中具有巨大的潜力,因为其高度分辨率,高动态范围,低功耗和无运动模糊的优势。但是,基于事件的学习受到不足的概括能力的阻碍。在本文中,我们首先分析不同亮度变化对事件数据的影响。然后,我们提出了两种新颖的增强方法:事件逆转和eventdrift。通过将事件逆转和漂移到时空或极性域中的相应位置,提出的方法会生成受不同亮度变化影响的样品,从而改善了基于事件的学习的鲁棒性,并导致更好的概括。N-CARS,N-Caltech101和CIFAR10-DVS数据集的广泛实验表明,我们的方法是一般且非常有效的。
translated by 谷歌翻译
现代有效的卷积神经网络(CNN)始终使用可分开的卷积(DSC)和神经体系结构搜索(NAS)来减少参数数量和计算复杂性。但是网络的一些固有特征被忽略了。受到可视化功能地图和n $ \ times $ n(n $> $ 1)卷积内核的启发,本文介绍了几种准则,以进一步提高参数效率和推理速度。基于这些准则,我们的参数有效的CNN体​​系结构称为\ textit {vgnetg},比以前的网络更高的准确性和延迟较低,降低了约30%$ \厚度$ 50%的参数。我们的VGNETG-1.0MP在ImageNet分类数据集上具有0.99万参数的67.7%TOP-1准确性和69.2%的TOP-1精度,而参数为114m。此外,我们证明边缘检测器可以通过用固定的边缘检测核代替N $ \ times $ n内核来代替可学习的深度卷积层来混合特征。我们的VGNETF-1.5MP存档64.4%( - 3.2%)的TOP-1准确性和66.2%(-1.4%)的TOP-1准确性,具有额外的高斯内核。
translated by 谷歌翻译
近年来,太空中出现了不合作的物体,例如失败的卫星和太空垃圾。这些对象通常由自由浮动双臂空间操纵器操作或收集。由于消除了建模和手动参数调整的困难,强化学习(RL)方法在空间操纵器的轨迹计划中表现出了更有希望的标志。尽管以前的研究证明了它们的有效性,但不能应用于跟踪旋转未知(非合作对象)的动态靶标。在本文中,我们提出了一个学习系统,用于将自由浮动双臂空间操纵器(FFDASM)的运动计划朝向非合作对象。具体而言,我们的方法由两个模块组成。模块I意识到了大型目标空间内两个最终效应的多目标轨迹计划。接下来,模块II将非合件对象的点云作为输入来估计运动属性,然后可以预测目标点在非合作对象上的位置。我们利用模块I和模块II的组合来成功地跟踪具有未知规律性的旋转对象上的目标点。此外,实验还证明了我们学习系统的可扩展性和概括。
translated by 谷歌翻译
我们将变异自动编码器(VAE)应用于Lamost-K2低分辨率光谱,以检测K2场中恒星的磁活性。在对所选无活跃恒星的光谱进行训练之后,VAE模型可以有效地生成光谱减法程序所需的合成参考模板,而不知道任何恒星参数。然后,我们在样品中检测到特殊的光谱特征,例如色圈排放,强卵巢排放和锂吸收。我们测量色球活性指标的排放,H $ \ alpha $和Ca II红外三重线(IRT)线,以量化出色的磁性活性。活跃星的H $ \ alpha $和Ca II IRT线的过量排放与旋转周期和源自K2光度法得出的光曲线的振幅非常相关。我们降低了LAMOST光谱,以模拟中国空间站望远镜(CSST)的无频谱,并将VAE应用于模拟数据。对于凉爽的活跃恒星,我们揭示了h $ \ alpha $线的等效宽度(ews)之间的良好协议,该线从光谱中衍生出具有两种决议。结果表明,在未来的CSST调查中鉴定磁性恒星的能力,该恒星将提供前所未有的大型低分辨率光谱数据库以及同时的恒星多波段光度法。
translated by 谷歌翻译
视频修复旨在从多个低质量框架中恢复多个高质量的帧。现有的视频修复方法通常属于两种极端情况,即它们并行恢复所有帧,或者以复发方式恢复视频框架,这将导致不同的优点和缺点。通常,前者具有时间信息融合的优势。但是,它遭受了较大的模型尺寸和密集的内存消耗;后者的模型大小相对较小,因为它在跨帧中共享参数。但是,它缺乏远程依赖建模能力和并行性。在本文中,我们试图通过提出经常性视频恢复变压器(即RVRT)来整合两种情况的优势。 RVRT在全球经常性的框架内并行处理本地相邻框架,该框架可以在模型大小,有效性和效率之间实现良好的权衡。具体而言,RVRT将视频分为多个剪辑,并使用先前推断的剪辑功能来估计后续剪辑功能。在每个剪辑中,通过隐式特征聚合共同更新不同的帧功能。在不同的剪辑中,引导的变形注意力是为剪辑对齐对齐的,该剪辑对齐可预测整个推断的夹子中的多个相关位置,并通过注意机制汇总其特征。关于视频超分辨率,DeBlurring和DeNoising的广泛实验表明,所提出的RVRT在具有平衡模型大小,测试内存和运行时的基准数据集上实现了最先进的性能。
translated by 谷歌翻译